О проблеме сохранения научных данных в цифровой среде


«Искусство — это последняя надежда для современного человека, который очень сильно погружён в цифровой мир» — эти слова Т.В. Черниговской, Заслуженного деятеля науки РФ, перекликаются с прошедшей в Санкт-Петербурге и Москве в 2021–2022 гг. выставкой New Nature². Современный арт-дуэт Recycle Group из Краснодара исследует цифровую среду обитания человека, вопросы сакральности текста и утилитарности информации. Художественный метод вскрывает болевые точки институтов памяти, помогая последним по-иному взглянуть на сегодняшний день.

Полежаева Татьяна Владимировна

Автор Татьяна Владимировна ПОЛЕЖАЕВА, директор Центра содействия публикационной активности научного управления, старший преподаватель факультета исторических и политических наук Томского государственного университета, кандидат исторических наук

«Лес истёкших ссылок» (2021), пожалуй, самая крупная инсталляция прошедшей выставки. Эта композиция представляет собой искусственный лес, в котором идёт своя жизнь: слышны фрагменты музыкальных произведений, видны тени заблокированного контента. В этом лесу даже живут люди: фейсбукианцы, инстаграммеры, твиттерианцы (Facebookian, Instagrammer, Twitterian) и др. — видимо, те, чьи неактивные профили навсегда остались в Сети. Лес состоит из чёрных листьев, напоминающих интерфейс редакторов кода, а сами листья испещрены «битыми» ссылками.

Впервые о проблеме «вымирания» ссылок заговорили ещё в 1990-х гг. Однако наиболее яркое исследование по этой теме было проведено юристами Гарварда в 2014-м. Учёные выяснили, что более 50% ссылок в судебных решениях и свыше 60% ссылок в научных статьях «вымерли»³. Эти цифры повергли в шок не только юристов, для которых сама суть прецедентного права оказалась под угрозой, но и специалистов из других научных областей. Так родился проект Perma⁴.

«Мы занимаемся "вечным" делом: библиотеки уже заботятся о физических и цифровых материалах — теперь мы можем делать то же самое со ссылками», — говорится на сайте проекта. Его разработчиками стали специалисты библиотеки юридического факультета Гарвардского университета совместно с другими университетскими юридическими библиотеками США. На 1 октября 2023 г. число пользователей портала составляло почти 120 тыс. человек и 3635 организаций, из них 335 библиотек.

Принцип работы Perma достаточно простой, а пользователям из сферы образования и науки сервис предоставляется бесплатно. Всё, что нужно сделать, — на сайте Perma.cc ввести URL-адрес страницы, которую хотите сохранить и процитировать. Далее указанная по URL-адресу страница просматривается программным обеспечением Perma и попадает в его архив. На эту архивную копию создаётся уникальный URL-адрес (например, perma.cc/ABCD-1234). Такую ссылку можно смело вставлять в свои работы, для читателей данные по ней никогда не исчезнут, как обещают разработчики проекта.

На 1 октября 2023 г. объём архива Perma составил свыше 4 млн единиц контента. Казалось бы, проблема вымирания ссылок решена, однако в 2021-м в статье, опубликованной в журнале New Scientist, учёные доказали, что ничто не вечно: ссылки на 16 627 статей, заархивированных 17 европейскими и американскими организациями, больше не работают. Проблемы больше всего коснулись контента Библиотеки и архива Канады, Национальной библиотеки Ирландии, Государственного архивного управления Северной Ирландии. Так опять проявилась хрупкость цифрового мира.

Задуматься о сакральности, утилитарности и качестве поглощаемой информации заставляет серия «Саркофаги». Метафора огромного объёма ненужного контента воплощена в мусорном баке, сросшемся с человеком и его гаджетом. Это будущее, которое библиотекари как специалисты по предоставлению качественной информации, пытались предотвратить, но оно уже наступило.

О проблеме сохранения научных данных в цифровой среде

Более того, институты памяти сами создают массу контента, который остаётся никем не востребованным. Так, исследование вузовских библиотек, проведённое в 2022 г. под эгидой Российской библиотечной ассоциации, показало, что только участниками опроса, а это 149 библиотек, за год оцифровывается более 1,2 млн документов. Что происходит с этими данными дальше? Как они используются в научном и образовательном процессах? Как измерить эффективность такой деятельности? На эти вопросы ещё нет ответов. Исследователи сегодня говорят о формировании «кладбищ» PDF —огромных массивов оцифрованных документов, затерянных и невостребованных. А пресловутый эффект Матфея (эффект Матфея (англ. Matthew effect) — феномен неравномерного распределения преимуществ, в котором сторона, уже ими обладающая, продолжает их накапливать и приумножать, в то время как другая, изначально ограниченная, оказывается обделена ещё сильнее и, следовательно, имеет меньшие шансы на дальнейший успех; термин был впервые предложен американским социологом Робертом Мертоном, который дал явлению такое название по цитате из притчи о талантах из Евангелия от Матфея: «…ибо всякому имеющему дастся и приумножится, а у неимеющего отнимется и то, что имеет». — Примеч. ред.) значительно снижает их шансы выйти из небытия. Возможно, эту проблему поможет решить искусственный интеллект, способный превратить накопленные данные в информационно насыщенную среду, в которой прорастёт семя знания.

При этом не стоит путать знание и точку зрения. Об этом нам напоминает ещё одна инсталляция Recycle Group — «Точка». Изображённая на экране чёрная точка изменяется в зависимости от угла зрения смотрящего. Сбоку виден только чёрный экран, с большого расстояния — общий план инсталляции, с близкого — мелкие детали, но в отрыве от целой композиции.

Художники побуждают задуматься о массе вопросов: как в мире, где сакральность Слова дискредитируется его обилием, а ложная информация способна разрушить государства, сформировать позитивное мировоззрение? Как научить молодое поколение со-чувствию, а через него — осмысленному со-существованию?

О проблеме сохранения научных данных в цифровой среде

Эти задачи призван решить курс «Основы российской государственности», запущенный в вузах с 1 сентября 2023 г. Новый предмет носит мировоззренческий характер, о чём говорят его разработчики. В курсе представлены пять разделов: «Что такое Россия», «Российское государство-цивилизация», «Российское мировоззрение и ценности российской цивилизации», «Политическое устройство», «Вызовы будущего и развитие страны». Однако чтобы выстроить хороший дом, следует заложить крепкий фундамент, а именно — источниковую базу.

Как будут изучать нашу историю через 50 лет? Какие источники станут использовать? Как обеспечить долговременное хранение (long-term preservation) цифрового контента?

В 2003 г. была принята Хартия ЮНЕСКО о сохранении цифрового наследия, в которой зафиксировано следующее определение: «Цифровое наследие — новый вид наследия, объединяющий ресурсы, относящиеся к области культуры, образования, науки и управления, а также информацию технического, правового, медицинского и иного характера, которые создаются в цифровой форме либо переводятся в цифровой формат путём преобразования существующих ресурсов на аналоговых носителях», и далее сказано, что «цифровые материалы включают в себя текстовые документы, базы данных, неподвижные и движущиеся изображения, звуковые и графические материалы, программное обеспечение и веб-страницы, представленные в значительном и непрерывно увеличивающемся количестве форматов».

О проблеме сохранения научных данных в цифровой среде

Такое широкое определение конкретизируется в национальных стандартах сохранения веба, отражающих не только технические аспекты этой работы, но и стратегические задачи сохранения национальных ориентиров. Например, веб-архивы, создаваемые Библиотекой Конгресса, отражают ведущую роль США в международной политике.

Ещё один крупный национальный проект по архивированию веб-ресурсов — австралийский национальный портал Trove. В его наполнении участвует свыше 1 тыс. организаций, насчитывается около 14 млрд объектов. Архивируются ресурсы домена au (Австралия). Разработана политика отбора материалов к архивации. Однако вся эта работа может пропасть, поскольку огромные мощности требуют сопоставимых по размерам финансовых вливаний. Попытки урезать бюджет летом 2023 г. поставили будущее Trove под угрозу: «В условиях ограниченного финансирования Trove может сократиться до службы, ориентированной на коллекции Национальной библиотеки Австралии. Без каких-либо дополнительных средств библиотеке придётся полностью прекратить предоставление услуг Trove…»

В контексте глобализации и угрозы потери национальной идентичности российскому обществу требуется чёткая стратегия сохранения своей культурно-исторической самобытности, основанная на современных достижениях в области работы с информацией.

В России из крупных проектов по сохранению веба можно назвать Национальный цифровой архив, создаваемый по частной инициативе И. Бегтина и АНО «Инфокультура»⁵. К сожалению, одни из главных держателей национального культурного кода — библиотеки — пока остаются в стороне от этих процессов. Хотя впервые в марте нынешнего года Российская государственная библиотека выступила с инициативой сохранения данных о спецоперации из интернет-СМИ и Telegram-каналов⁶. А Российская национальная библиотека в ноябре 2023 г. проводит всероссийский научно-практический семинар «Краеведческие ресурсы Сети как объект веб-архивирования и исследования». Совершенно очевидно, что сегодня требуются системные решения в области цифрового наследия.

Можно сказать, что в рамках проекта «Исторические информационные ресурсы в исследовательской инфраструктуре: модели репрезентации, анализа и интеграции данных по региональной истории», поддержанного Российским научным фондом, мы реализуем подготовительные работы. Так, на примере исторической информации будет предпринята попытка картировать риски сохранения цифрового контента (социальные, политические, технологические и финансовые). Будет сформулирована модель их минимизации. В дальнейшем это позволит профессионалам институтов памяти подойти к детальной проработке вопроса долговременного хранения цифровых объектов.

За рубежом над этим вопросом уже трудятся специалисты «Европеаны» в тесном сотрудничестве с ИТ-компаниями. Особый интерес представляют разработки команд Тима Бернерс-Ли (проект Solid⁷) и Александра Турского (проект «Постплатформы»/Postplatforms⁸).

В качестве заключения хотелось бы отметить, что сформировать культурный код России без определения национальной политики в области веб-архивирования невозможно. Сегодня мы видим отдельные инициативы, которые сталкиваются или могут столкнуться с финансовыми, технологическими и другими проблемами. Поэтому акцентировать смыслы национальной политики по сохранению цифрового наследия, задать приоритетные направления для работы и курировать эту деятельность — это те задачи, которые могут быть решены только за счёт коллективной работы всех заинтересованных сторон. Кто первым возьмёт на себя инициативу и ответственность — вопрос ближайшего времени.


1 Статья подготовлена за счет гранта Российского научного фонда № 23-78-10119 (https://rscf.ru/project/23-78-10119/).

2 Выставка Recycle Group New Nature 17 декабря — 13 марта 2022 // Винзавод. Центр современного искусства: сайт. URL: https://www.winzavod.ru/calendar/exhibitions/new-nature/ (дата обращения: 16.10.2023);

New Nature // Recycle Group: site. URL: https://recycleartgroup.com/exhibitions/new-nature/ (date of request: 16.10.2023).

3 Klein M. Scholarly Context Not Found: One in Five Articles Suffers from Reference Rot / M. Klein, H. Van de Sompel, R. Sanderson [et al.] // PLoS ONE. 2014. Vol. 9, iss. 12. P. e115253. URL: https://doi.org/10.1371/journal.pone.0115253 (date of request: 16.10.2023); Lessig L. Perma: Scoping and Addressing the Problem of Link and Reference Rot in Legal Citations. How to make legal scholarship more permanent / L. Lessig, J. Zittran, K. Albert // Harvard Law Review. 2014. Feb. Vol. 127, iss. 4. URL: https://harvardlawreview.org/forum/vol-127/perma-scoping-and-addressing-the-problemof-link-and-reference-rot-in-legal-citations/ (date of request: 16.10.2023).

4 Lessig L. Perma: Scoping and Addressing the Problem of Link and Reference Rot in Legal Citations. How to make legal scholarship more permanent / L. Lessig, J. Zittran, K. Albert // Harvard Law Review. 2014. Feb. Vol. 127, iss. 4. URL: https://harvardlawreview.org/forum/vol-127/perma-scopingand-addressing-the-problem-of-link-and-reference-rot-in-legal-citations/ (date of request: 16.10.2023).

5 Национальный цифровой архив России: сайт. URL: https://ruarxive.org/ (дата обращения: 16.10.2023).

6 Глава «Ленинки» — РБК: «Библиотека — возмутитель спокойствия» // РБК: сайт. Рубрика сайта «Технологии и медиа». 2023. 29 марта. URL: https://www.rbc.ru/technology_and_media/29/03/2023/6421631b9a794759ccc3af5c (дата обращения: 16.10.2023).

7 Solid: site. URL: https://solid.mit.edu/ (date of request: 16.10.2023).

8 The new secure and inclusive Web 3.0 Data Space ecosestem // Post Platforms Foundation: site. URL: https://postplatforms.org/ (date of request: 16.10.2023).


Рубрика: Вузовские библиотеки

Год: 2023

Месяц: Ноябрь

Теги: Татьяна Полежаева Научный контент